22 Mayo, 2021
Compilar via Jupiter Notebooks em: https://github.com/pchiroque/NLP/;
Desenvolveremos un proyecto completo;
Referencia: (Bird, Klein, and Loper 2009)
Que es Procesamiento de Lenguaje Natural? dentro de Ciencia de Datos;
Pasos: Mineria de textos / Exploración Análisis / Técnicas de PLN
Que es Lenguaje Natural?
Idioma Ruso (es un leguaje natural)
Idioma Frances (es un leguaje natural)
Lenguaje Español (es un leguaje natural)
Lenguaje Python (no es un leguaje natural)
Subárea da Inteligencia Artificial (IA)
Estudia las capacidades/limitaciones de uma máquina em entender a linguagem dos seres humanos.
Objetivo del PLN dar a los computadores la capacidade de entender y componer textos (Audios).
Para modelar el lenguaje y hacer posible que la maquina entienda
Procesamientos:
Normalización-Tokenización: Segmentación de palavras, quiebra de la sequencia de caracteres em um texto localizando.
Linguística computacional: las palabras identificadas son frequentemente denominadas de tokens.
Transformación de letras mayúsculas para minúsculas
Retirar remoção de caracteres especiais
Retirar tags HTML/Javascript/CSS, otros
Programar: Usando datos PLN via : pandas, sklearn, re nltk, TextBlob, gensim
Matemática y estadística: Mineración, exploración y análisis de datos via:
Corpus, diseñar la matriz de terminos
Contar palabras
Análisis de sentimientos
Modelamiento
Generación de textos
Comunicación diseñar un dominio: Visualización, extracción de conclusiones.
Pregunta inicial;
Colectar los datos y hacer mineración de datos;
Explorar y analisar datos (EDA);
Aplicar técnicas;
Compartir resultados.
text = \(text.lower()\): convertir em minuscula,
text = \(re.sub('\[.*?\]', '', text)\) remove text in square brackets
text = \(re.sub('[%s]' % re.escape(string.punctuation), '', text)\) : remove punctuation
text = \(re.sub('\w*\d\w*', '', text)\): remueve alfa-numericas caracteres.
El texto en pequeñas partes Tokenized (quebrar el texto).
En python scikit-learn’s CountVectorizer,
Una columna por palabra
Con CountVectorizer podemos remover por ejemplo: ‘a,’ ‘the,’ etc.
Exploratory_Data_Analysis.ipynb
Topico_Modelos.ipynb